EN FR
EN FR




Bilateral Contracts and Grants with Industry
Bibliography




Bilateral Contracts and Grants with Industry
Bibliography


Section: New Results

Algorithmes/Algorithms

Méthodes multigrilles pour le contrôle stochastique et les jeux répétés à somme nulle/Multigrid methods for stochastic control and repeated zero sum games

Participants : Marianne Akian, Sylvie Detournay.

L'algorithme d'itération sur les politiques est bien connu pour résoudre efficacement les équations de la programmation dynamique associées à des problèmes de contrôle stochastique avec critère à horizon infini (Howard) ou ergodique (Howard, et Denardo et Fox). Récemment, il a été généralisé au cas de problèmes de jeux à deux joueurs et somme nulle dégénérés (avec paiements ergodiques et de type “multi-chaîne”), au moyen de techniques d'algèbre max-plus et de théorie du potentiel non linéaire  [87] . Chaque itération de base de cet algorithme utilise la résolution d'un système d'équations linéaires dont l'opérateur est monotone, mais dont la taille peut être grande, soit parce qu'il provient d'une discrétisation fine d'une équation aux dérivées partielles, soit parce qu'il est associé à un problème discret de grande taille comme le graphe du Web.

Or, la méthode multigrille est l'une des rares méthodes permettant de résoudre, au moins dans les bons cas, des systèmes linéaires en un temps de l'ordre de la taille du système. De plus, alors que la méthode multigrille classique ne s'applique qu'à des discrétisations d'équations aux dérivées partielles elliptiques, la méthode multigrille algébrique (voir par exemple  [164] ) peut s'appliquer à tout système linéaire présentant des propriétés de monotonie (principe du maximum ou système avec M-matrice).

L'association entre méthodes multigrilles et itérations sur les politiques avait déjà été utilisée et étudiée dans le cas de problèmes de contrôle stochastique actualisé (voir par exemple  [57] , [65] ), ainsi que dans le cas d'un algorithme d'itération sur les politiques simplifié pour le contrôle ergodique (voir par exemple [5] ), mais pour lequel il n'existe pas de preuve de convergence. La méthode multigrille algébrique avait été récemment associée à des méthodes d'apprentissage (voir par exemple  [180] ). Nous l'avions aussi testée dans le cas de l'itération sur les politiques pour des problèmes de jeux à somme nulle actualisés au cours du stage de Shantanu Gangal en 2007.

La thèse de Sylvie Detournay a eu pour but de développer et d'étudier un algorithme associant une méthode d'itération sur les politiques du type de celle introduite par Cochet-Terrasson et Gaubert dans  [87] et une méthode multigrille algèbrique, afin de résoudre des problèmes de jeux à somme nulle dégénérés, éventuellement posés directement sous forme discrète. Au cours de sa thèse, Sylvie Detournay a codé l'ensemble des algorithmes en C, en faisant appel éventuellement à des librairies existantes en particulier les méthodes multigrilles algèbriques d'Yvan Notay. L'ensemble des codes nouveaux est déposé sur le projet “pigames” de la gforge et sera disponible librement.

Une première partie de la thèse [11] qui a été publiée dans [14] concerne le cas non dégénéré (actualisé). Elle comprend en particulier des tests sur des discrétisations d'équations aux dérivées partielles d'Hamilton-Jacobi-Bellman ou d'Isaacs, ou d'inéquations variationnelles.

Le reste de la thèse concerne le cas de problèmes avec critère moyen en temps. Sylvie Detournay a en particulier implémenté et raffiné l'algorithme proposé par Cochet-Terrasson et Gaubert  [87] , en l'associant soit à des méthodes de résolution exacte de systèmes linéaires, soit à des méthodes multigrilles algébriques, en utilisant aussi des méthodes multigrilles multiplicatives pour le calcul de la mesure invariante de chaînes de Markov irréductibles, comme celles introduites par De Sterck. Ceci a permis l'obtention de résultats numériques dans le cas de discrétisations d'équations d'Isaacs associées à des jeux de poursuite déterministes ou aléatoires. Cela a aussi permis de tester de manière systématique l'algorithme sur des instances aléatoires de jeux de type Richman. Certains de ces résultats, ainsi que la présentation de l'algorithme (de manière plus concrète que dans  [87] , et avec les détails d'implémentation) et les preuves de sa convergence sont regroupés dans le manuscrit [45] écrit avec Jean Cochet-Terrasson et Stéphane Gaubert.

Ces travaux ont aussi conduit à l'introduction dans [11] d'une nouvelle méthode multigrille multiplicative pour le calcul de la mesure invariante de chaînes de Markov irréductibles, qui consiste en l'application de l'algorithme d'itération sur les politiques combiné aux méthodes multigrilles algèbriques au problème de contrôle optimal (à un joueur) avec critère moyen en temps obtenu par transformation log-exp du système linéaire initial. Cette méthode a été testée et comparée aux méthodes multigrilles multiplicatives existantes.

English version

Policy iteration is a powerful and well known algorithm to solve the dynamic programming equation associated to stochatic control (one player game) problems with infinite horizon criterion (Howard) or ergodic criterion (Howard and Denardo and Fox). It has recently been extended to degenerate two players problems (with ergodic payoff and in “multichain” cases) using ideas from max-plus algebra and nonlinear potential theory  [87] . One basic iteration of the algorithm consists in solving a linear system the operator of which is monotone, but with a size which may be large since it comes from the discretization of a partial differential equation or since it is associated to a large size discrete problem arising from instance from the Web graph.

For the solution of large size linear systems, the state of art consists of multigrid methods which are often able to solve systems in linear time. Whereas multigrid methods can only be applied to systems that come from discretizations of elliptic partial differential equations, algebraic multigrid methods (see for instance  [164] ) can be applied to any linear system with monotonicity properties (discrete maximum principle or system with a M-matrix).

The association of multigrid methods with policy iteration has been used and studied in the case of discounted stochastic control problems (see for instance  [57] , [65] ), or in the case of a simplified policy iteration algorithm for ergodic control (see for instance [5] ), but for which no proof of convergence is known. Some recent work combines the algebraic multigrid method with learning methods  [180] . We also tested it in the case of policy iterations for discounted zero-sum two-player games, during the internship of Shantanu Gangal in 2007.

The aim of the PhD thesis of Sylvie Detournay was to develop and study an algorithm for degenerate two player games (that may come from a discrete time and finite state space model) combining a policy iteration such as the one introduced in  [87] and an algebraic multigrid method (AMG). During her thesis, Sylvie Detournay coded all algorithms in C, using eventually existing librairies in particular the algebraic multigrid libray of Yvan Notay. All new algorithms belong to the gforge project “pigames” and will be distributed openly.

A first part of the thesis manuscript [11] , which has published in [14] , concerns the nondegenerate (discounted) case. It contains in particular some tests on discretisations of Hamilton-Jacobi-Bellman or Isaacs partial differential equations or variational inequalities.

The rest of the thesis concerns the case of problems with mean-payoff criteria. In particular, Sylvie Detournay has implemented and refined the algorithm proposed by Cochet-Terrasson and Gaubert  [87] , while associating it either to direct linear solvers, or to the AMG methods already used in the nondegenerate case, and using also multiplicative AMG methods for computing invariant measures of Markov chains, such as the one introduced by De Sterck. This allowed her to obtain numerical results in the case of discretisations of Isaacs equations associated to deterministic or stochastic pursuit games. This also allowed her to test systematically the algorithm on random instances of Richman type games. Some of these results, together with the presentation of the algorithm (in a more practical manner than in   [87] , with implementation details), and convergence proofs are gathered in the article [45] with Jean Cochet-Terrasson and Stéphane Gaubert.

These works also led to the introduction in [11] of a new multiplicative AMG method for computing invariant measures of irreducible Markov chains. This method consists of the application of the policy iteration algorithm combined with AMG method to the optimal control (or one player) problem with mean-payoff criteria obtained after a log-exp transformation of the initial linear system. It has been tested and compared with previous multiplicative AMG methods.

Algorithmique des polyèdres tropicaux/Algorithmics of tropical polyhedra

Participants : Xavier Allamigeon, Pascal Benchimol, Stéphane Gaubert, Eric Goubault [CEA] , Michael Joswig [TU Darmstadt] .

X. Allamigeon, S. Gaubert, et E. Goubault, ont développé dans  [67][16] plusieurs algorithmes permettant de manipuler des polyèdres tropicaux. Ceux-ci correspondent aux travaux décrits dans § 6.2.1 . Ils permettent notamment de déterminer les sommets et rayons extrêmes d'un polyèdre tropical défini comme intersection de demi-espaces, ou inversement, de calculer une représentation externe à partir d'un ensemble de générateurs. Ces algorithmes sont implémentés la bibliothèque TPLib (voir § 5.3 ).

Dans un travail en cours de X. Allamigeon, P. Benchimol, M. Joswig et S. Gaubert, nous nous intéressons aux problèmes de programmation linéaire tropicale. Nous définissons un analogue tropical de la méthode du simplexe. L'algorithme repose sur une technique de pivotage entièrement combinatoire entre deux points de base, se fondant sur la notion d'hypergraphes tangents.

English version

X. Allamigeon, S. Gaubert, and E. Goubault, have developed in  [67][16] algorithms allowing one to manipulate tropical polyhedra. They correspond to the contributions described in § 6.2.1 . In particular, they can be used to determine the vertices and extreme rays of a tropical polyhedron defined as the intersection of half-spaces, or inversely, to compute an external description from a set of generators. These algorithms are implemented in the library TPLib (see § 5.3 ).

In an ongoing work of X. Allamigeon, P. Benchimol, M. Joswig and S. Gaubert, we study the problems of tropical linear programming. We define a tropical analog of simplex algorithm. It relies on a pivoting technique between two basis points, which is entirely combinatorial, and which involves the notion of tangent hypergraphs.

Problèmes d'accessibilité dans les hypergraphes orientés et leur complexité/Reachability problems in directed hypergraphs and their complexity

Participant : Xavier Allamigeon.

Les hypergraphes orientés sont une généralisation des graphes orientés, dans lesquelles chaque arc relie un ensemble de sommets à un autre. Ils jouent un rôle important dans les travaux récents sur la convexité tropicale (voir § 6.2.1 ), puisqu'ils offrent une représentation naturelle des cônes définis sur le sous-semi-anneau booléen 𝔹={-,0}.

Dans un travail de X. Allamigeon [17] , on étudie la complexité de problèmes d'accessibilité sur les hypergraphes orientés. Nous introduisons un algorithme de complexité presque linéaire permettant de déterminer les composantes fortement connexes terminales (qui n'accèdent à aucune autre composante si ce n'est elles-mêmes) d'un hypergraphe.

Nous établissons également une borne inférieure sur-linéaire sur la taille de la réduction transitive de la relation d'accessibilité dans les hypergraphes. Cela indique que la relation d'accessibilité dans les hypergraphes orientés est combinatoirement plus complexe que celle des graphes orientés. Cela suggère aussi que des problèmes comme le calcul des composantes fortement connexes est plus difficile sur les hypergraphes que sur les graphes. Nous mettons d'ailleurs en évidence une réduction en temps linéaire du problème du calcul des ensembles minimaux dans une famille d'ensembles donnée, vers le problème du calcul de toutes les composantes fortement connexes d'un hypergraphe. Le problème du calcul des ensembles minimaux a été largement étudié dans la littérature  [155] , [176] , [175] , [156] , [157] , [158] , [103] , [74] , et aucune algorithme en temps linéaire n'est connu à ce jour.

English version

Directed hypergraphs are a generalization of directed graphs, in which the tail and the head of the arcs are sets of vertices. It appears that they play an important role in the recent works on tropical convexity (see § 6.2.1 ), since they offer a natural representation of cones defined over the boolean sub-semiring 𝔹={-,0}.

In a work of X. Allamigeon [17] , we study the complexity of reachability problems on directed hypergraphs. We introduce an almost linear-time algorithm allowing to determine the terminal strongly connected components (a component is said to be terminal when no other component is reachable from it).

We also establish a super-linear lower bound over the size of the transitive reduction of the reachability relation in directed hypergraphs. This indicates that the reachability relation is combinatorially more complex in directed hypergraphs than in directed graphs. This also suggests that reachability problems such as computing all strongly connected components are likely to be harder in hypergraphs than in graphs. Besides, we show that the minimal set problem can be reduced in linear time to the problem of computing all strongly connected components in hypergraphs. The former problem consists in finding all minimal sets among a given family of sets. It has been well studied in the literature  [155] , [176] , [175] , [156] , [157] , [158] , [103] , [74] , and no linear time algorithm is known.

Approximation max-plus de fonctions valeurs et équations de Riccati généralisées/Max-plus approximation of value functions and generalized Riccati equations

Participants : Stéphane Gaubert, Zheng Qu, Shanjian Tang [Fudan University, Shanghai] .

La thèse de Zheng Qu, supervisée par S. Gaubert et S. Tang, porte sur le développement de méthodes tropicales en programmation dynamique approchée.

Les méthodes d'approximation max-plus conduisent à approcher la fonction valeur d'un problème de contrôle ou de jeux par un supremum d'un nombre fini de formes quadratiques, voir notamment  [114] . On s'intéresse ici à l'analyse théorique (complexité) ainsi qu'à l'amélioration de ces méthodes. Dans certains cas, ces formes quadratiques sont propagées par des flots d'équations de Riccati généralisées. Afin d'effectuer des analyses d'erreur, on exploite les propriétés de contraction du flot de Riccati pour certaines métriques connues sur le cône des matrices positives, et en particulier pour la métrique de Thompson. Celle-ci n'est rien d'autre que d T (A,B)=logspec(A -1 B) , où spec désigne la suite des valeurs propres d'une matrice, et log s'entend composante par composante.

Ceci nous a amené à étudier le problème général du calcul du taux de contraction d'un flot monotone sur un cône, pour la métrique de Thompson. En effet, les propriétés de contraction de l'équation de Riccati standard sont connues (résultats de Bougerol pour la métrique Riemanienne invariante, et de Wojtowski pour la métrique de Thompson), mais les techniques de preuve employées dans ce cadre (semigroupes de matrices symplectiques) ne s'étendent pas aux équations généralisées.

On donne dans [51] une formule explicite générale pour le taux de contraction pour la métrique de Thompson d'un flot monotone, faisant seulement intervenir le générateur du flot et sa dérivée. On a notamment appliqué ce résultat à une équation de Riccati généralisée associé à des problèmes de contrôle stochastique avec critère quadratique, dans lesquels la dynamique comporte un terme bilinéaire en le contrôle et le bruit. On a montré dans ce cas que la métrique de Thompson est la seule métrique de Finsler invariante pour laquelle le flot est nonexpansif, et l'on a caractérisé la constante de contraction locale.

Une application de ces résultats à l'analyse d'une méthode de réduction de la malédiction de la dimension, dûe à McEneaney, a été réalisée récemment par Z. Qu.

English version

The PhD work of Zheng Qu is supervised by S. Gaubert and S. Tang, it aims in particular at developing tropical methods in approximate dynamic programming.

The max-plus methods lead to approach the value function of an optimal control or zero-sum game problem by a supremum of a finite number of quadratic forms, see in particular  [114] . We are interested here in the theoretical analysis (complexity) of this class of methods, as well as of their improvement. In certain cases, the quadratic forms are propagated by the flows of generalized Riccati equations. In order to perform an error analysis, we need to use some contraction properties of the Riccati flow, for certain known metrics on the space of positive matrices, like Thompson's metric. The latter is nothing but d T (A,B)=logspec(A -1 B) , where spec denotes the sequence of eigenvalues of a matrix, and log is understood entrywise.

This led us to study the general problem of computing the contraction rate of an order-preserving flow on a cone, with respect to Thompson's metric. Indeed, the contraction properties of the standard Riccati flow are known (theorem of Bougerol for the invariant Riemanian metric, of Wojtowski for the Thompson's metric), but the proof of these properties (based on symplectic semigroups) does not carry over to generalized Riccati equations.

We gave in [51] a general explicit formula for the contraction rate with respect to Thompson's metric of an order-preserving flow, involving only the generator of the flow and its derivative. We applied in particular this result to a generalized Riccati equation, associated to stochastic optimal control problems with a quadratic cost and a bilinear dynamics (presence of a bilinear term between the control and the noise). We showed that in this case, the Thompson's metric is the only invariant Finsler metric in which the generalized Riccati flow is nonexpansive, and we characterized the local contraction rate of this flow.

Z. Qu applied recently these results to the analysis of a method of reduction of the curse of dimensionality, introduced by McEneaney.